智能论文笔记

Inference for BART with Multinomial Outcomes

Yizhen Xu , Joseph W. Hogan , Michael J. Daniels , Rami Kantor , Ann Mwangi

分类：机器学习 | (统计)机器学习

2021-01-18

多项式概率贝叶斯添加剂回归树（MPBART）框架是由Kindo等人提出的。（KD），与BART的多项式概率（MNP）模型中的潜在实用程序近似（Chipman等人，2010年）。与多项式逻辑模型相比，MNP不假定独立的替代方案，并且可以通过多元高斯分布式潜在实用程序指定替代方案之间的相关结构。我们介绍了两种新算法，以拟合MPBART，并表明我们的提案的理论混合速率相等或优于KD中现有的算法。通过模拟，我们探讨了方法对参考水平的选择，结果频率的不平衡以及实用程序误差项的先前超参数的规格。这项工作是由基于电子健康记录（EHR）从肯尼亚提供医疗保健（AMPATH）的学术模型中的电子健康记录（EHR）来实现后验预测分布来在HIV阳性患者中进行护理的后验预测分配的动机。在应用程序和模拟中，与KD相比，在MCMC收敛速率和后验预测精度方面，我们使用建议的性能更好。

translated by 谷歌翻译

Improving Precancerous Case Characterization via Transformer-based Ensemble Learning

Yizhen Zhong , Jiajie Xiao , Thomas Vetterli , Mahan Matin , Ellen Loo , Jimmy Lin , Richard Bourgon , Ofer Shapira

分类：机器学习

2022-12-10

The application of natural language processing (NLP) to cancer pathology reports has been focused on detecting cancer cases, largely ignoring precancerous cases. Improving the characterization of precancerous adenomas assists in developing diagnostic tests for early cancer detection and prevention, especially for colorectal cancer (CRC). Here we developed transformer-based deep neural network NLP models to perform the CRC phenotyping, with the goal of extracting precancerous lesion attributes and distinguishing cancer and precancerous cases. We achieved 0.914 macro-F1 scores for classifying patients into negative, non-advanced adenoma, advanced adenoma and CRC. We further improved the performance to 0.923 using an ensemble of classifiers for cancer status classification and lesion size named entity recognition (NER). Our results demonstrated the potential of using NLP to leverage real-world health record data to facilitate the development of diagnostic tests for early cancer prevention.

translated by 谷歌翻译

Extending Word-Level Quality Estimation for Post-Editing Assistance

Yizhen Wei , Takehito Utsuro , Masaaki Nagata

分类：自然语言处理

2022-09-23

我们定义了一个名为“扩展单词对齐”的新颖概念，以提高后编辑辅助效率。基于扩展的单词对齐方式，我们进一步提出了一个名为精制单词级量化宽松的新颖任务，该任务输出精制标签和单词级对应关系。与原始单词级别的量化宽松相比，新任务能够直接指出编辑操作，从而提高效率。为了提取扩展单词对齐，我们采用了基于Mbert的监督方法。为了解决精致的单词级量化宽松，我们首先通过训练基于Mbert和XLM-R的序列标记的回归模型来预测原始量化量子标签。然后，我们使用扩展单词对齐来完善原始文字标签。另外，我们提取源差距对应关系，同时获得GAP标签。两种语言对的实验显示了我们方法的可行性，并为我们提供了进一步改进的灵感。

translated by 谷歌翻译

Revisiting Rolling Shutter Bundle Adjustment: Toward Accurate and Fast Solution

Bangyan Liao , Delin Qu , Yifei Xue , Huiqing Zhang , Yizhen Lao

分类：计算机视觉

2022-09-18

我们提出了一个健壮而快速的捆绑调整解决方案，该解决方案估计了基于滚动快门（RS）摄像头的测量值的摄像机的6多杆姿势和环境的几何形状。这解决了现有作品中的挑战，即依靠其他传感器，高帧速率视频作为输入，对摄像机运动的限制性假设，读出方向和效率低下。为此，我们首先研究了标准化对图像点对RSBA性能的影响，并在建模真正的6-DOF相机运动时显示了更好的近似值。然后，我们为视觉残差协方差提出了一个新的分析模型，该模型可用于在优化过程中标准化再投影误差，从而提高了整体准确性。更重要的是，RSBA（NW-RSBA）中归一化和协方差标准化加权的组合可以避免常见的平面退化，而无需限制拍摄方式。此外，我们根据其Jacobian Matrix和Schur补充的稀疏性提出了NW-RSBA的加速策略。广泛的合成和真实数据实验验证了拟议解决方案对最新作品的有效性和效率。我们还证明了所提出的方法可以轻松实施，并作为已完成的RSSFM和RSSLAM解决方案插入著名的GSSFM和GSSLAM系统。

translated by 谷歌翻译

FEC: Fast Euclidean Clustering for Point Cloud Segmentation

Yu Cao , Yancheng Wang , Yifei Xue , Huiqing Zhang , Yizhen Lao

分类：计算机视觉

2022-08-16

从点云数据进行分割至关重要，例如遥感，移动机器人或自动驾驶汽车。但是，由3D范围传感器捕获的点云通常是稀疏且非结构化的，具有挑战性的有效分割。在本文中，我们提出了一个快速解决方案，以对云实例进行分割，并具有较小的计算需求。为此，我们提出了一种新颖的快速欧几里得聚类（FEC）算法，该算法在现有作品中使用的聚类方案上应用了一个方案。我们的方法在概念上是简单，易于实现的（C ++中的40行），并且在产生高质量的结果的同时，针对经典分割方法实现了两个大小。

translated by 谷歌翻译

Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises

Minkyu Choi , Yizhen Zhang , Kuan Han , Xiaokai Wang , Zhongming Liu

分类：计算机视觉

2022-06-15

与人类的视野相比，基于卷积神经网络（CNN）的计算机视觉更容易受到对抗性的噪音。这种差异可能归因于眼睛如何样本视觉输入以及大脑如何通过其背侧和腹侧视觉途径处理视网膜样品，这些途径尚未探索计算机视觉。受到大脑的启发，我们设计了复发性神经网络，包括模拟人类视网膜的输入采样器，它是一个指导下一步位置的背面网络，以及代表视网膜样品的腹网络。组合这些模块，这些模型学会了多一眼图像，每一眼就注意一个明显的部分，并随着时间的推移积累表示形式以识别图像。我们测试了此类模型的稳健性，并在不同水平的对抗噪声上测试，特别关注不同输入采样策略的效果。我们的发现表明，视网膜凹和采样使模型更加可靠，并且在给予更长的时间以更多地看一眼图像时，该模型可能会从攻击中纠正自身。总之，强大的视觉识别可以从三种受脑启发的机制的综合使用中受益：视网膜转化，注意力引导的眼动运动和经常性处理，而不是仅喂食的CNN。

translated by 谷歌翻译

CGMN: A Contrastive Graph Matching Network for Self-Supervised Graph Similarity Learning

Di Jin , Luzhi Wang , Yizhen Zheng , Xiang Li , Fei Jiang , Wei Lin , Shirui Pan

分类：机器学习 | 人工智能

2022-05-30

图形相似性学习是指计算两个图之间的相似性得分，这在许多现实的应用程序（例如视觉跟踪，图形分类和协作过滤）中需要。由于大多数现有的图形神经网络产生了单个图的有效图表，因此几乎没有努力共同学习两个图表并计算其相似性得分。此外，现有的无监督图相似性学习方法主要基于聚类，它忽略了图对中体现的有价值的信息。为此，我们提出了一个对比度图匹配网络（CGMN），以进行自我监督的图形相似性学习，以计算任何两个输入图对象之间的相似性。具体而言，我们分别在一对中为每个图生成两个增强视图。然后，我们采用两种策略，即跨视图相互作用和跨刻画相互作用，以实现有效的节点表示学习。前者求助于两种观点中节点表示的一致性。后者用于识别不同图之间的节点差异。最后，我们通过汇总操作进行图形相似性计算将节点表示形式转换为图形表示。我们已经在八个现实世界数据集上评估了CGMN，实验结果表明，所提出的新方法优于图形相似性学习下游任务的最新方法。

translated by 谷歌翻译

Towards Graph Self-Supervised Learning with Contrastive Adjusted Zooming

Yizhen Zheng , Ming Jin , Shirui Pan , Yuan-Fang Li , Hao Peng , Ming Li , Zhao Li

分类：机器学习 | 人工智能

2021-11-20

图表表示学习（GRL）对于图形结构数据分析至关重要。然而，大多数现有的图形神经网络（GNNS）严重依赖于标签信息，这通常是在现实世界中获得的昂贵。现有无监督的GRL方法遭受某些限制，例如对单调对比和可扩展性有限的沉重依赖。为了克服上述问题，鉴于最近的图表对比学习的进步，我们通过曲线图介绍了一种新颖的自我监控图形表示学习算法，即通过利用所提出的调整变焦方案来学习节点表示来学习节点表示。具体地，该机制使G-Zoom能够从多个尺度的图表中探索和提取自我监督信号：MICRO（即，节点级别），MESO（即，邻域级）和宏（即，子图级）。首先，我们通过两个不同的图形增强生成输入图的两个增强视图。然后，我们逐渐地从节点，邻近逐渐为上述三个尺度建立三种不同的对比度，在那里我们最大限度地提高了横跨尺度的图形表示之间的协议。虽然我们可以从微距和宏观视角上从给定图中提取有价值的线索，但是邻域级对比度基于我们的调整后的缩放方案提供了可自定义选项的能力，以便手动选择位于微观和介于微观之间的最佳视点宏观透视更好地理解图数据。此外，为了使我们的模型可扩展到大图，我们采用了并行图形扩散方法来从图形尺寸下解耦模型训练。我们对现实世界数据集进行了广泛的实验，结果表明，我们所提出的模型始终始终优于最先进的方法。

translated by 谷歌翻译

Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning

Yizhen Zhang , Minkyu Choi , Kuan Han , Zhongming Liu

分类：自然语言处理 | 机器学习

2021-11-13

在自然语言处理中，大多数模型都尝试仅仅从文本学习语义表示。学习的表示编码了分布语义，但未能连接到物理世界的任何知识。相比之下，人类通过在感知和行动中接地概念来学习语言，并且大脑编码接地语义进行认知。灵感来自这一概念和最近的愿景 - 语言学习的工作，我们设计了一个用于愿景中的接地语言学习的两流模型。该模型包括基于VGG的视觉流和基于BERT的语言流。这两条流合并到联合代表空间中。通过跨模型对比学习，该模型首先学会与MS Coco DataSet对齐视觉和语言表示。该模型进一步学习通过跨模型注意模块检索具有语言查询的视觉对象，并通过与视觉基因组数据集推断通过双线性操作员通过双线性运算符之间的视觉关系。在培训之后，该模型的语言流是一种独立语言模型，能够在视觉上接地的语义空间中嵌入概念。这种语义空间表现出主要尺寸可与人类直觉和神经生物学知识达到典型。这个语义空间中的单词嵌入是预测人类定义的语义特征规范，并且被隔离成感知的独特簇。此外，视觉接地的语言模型还通过基于图像，文本或其组合的查询来实现基于视觉知识和多模式图像搜索的组成语言理解。

translated by 谷歌翻译

Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types

Shentong Mo , Xi Fu , Chenyang Hong , Yizhen Chen , Yuxuan Zheng , Xiangru Tang , Zhiqiang Shen , Eric P Xing , Yanyan Lan

分类：人工智能 | 机器学习

2021-10-11

在基因组生物学研究中，调节基因组建模是许多监管下游任务的重要课题，例如推动者分类，交易因子结合位点预测。核心问题是模拟监管元素如何相互交互及其跨不同小区类型的可变性。然而，目前的深度学习方法通常专注于建模固定的细胞类型集的基因组序列，并且不考虑多个调节元件之间的相互作用，使它们仅在训练集中的小区类型上表现良好，并且缺乏所需的概括生物学应用。在这项工作中，我们提出了一种简单但有效的方法，用于以多模态和自我监督的方式预先培训基因组数据，我们称之为Genebert。具体而言，我们同时服用1D基因组数据和2D矩阵（转录因子X区）作为输入，其中提出了三项预训练任务，以提高模型的鲁棒性和概括性。我们在ATAC-SEQ数据集上预先培训我们的模型，具有1700万基因组序列。我们在不同细胞类型中评估我们的Genebert关于监管下游任务，包括启动子分类，交易因子结合位点预测，疾病风险估计和剪接部位预测。广泛的实验证明了大型监管基因组学数据的多模态和自我监督的预培训的有效性。

translated by 谷歌翻译